Défi EGC 2016 : Analyse par Motifs Fréquents et Topic Modeling

نویسندگان

  • Julien Aligon
  • Fabrice Guillet
  • Julien Blanchard
  • Fabien Picarougne
چکیده

Résumé. Dans le domaine de l’analyse de textes, l’extraction de motifs est une technique très populaire pour mettre en évidence des relations fréquentes entre les mots. De même, les techniques de topic modeling ont largement fait leurs preuves lorsqu’il s’agit de classer automatiquement des ensembles de textes partageant des thématiques similaires. Ainsi, ce papier a pour ambition de montrer l’intérêt de l’utilisation conjointe de ces deux techniques afin de mettre en évidence, sous la forme d’un graphe biparti, des mots partageant des thématiques similaires mais aussi leurs relations fréquentes, intra et inter thématiques. Les données du Défi EGC 2016 permettent de valider l’intérêt de l’approche, tout en montrant l’évolution des thématiques et des mots clés parmi les papiers de la conférence EGC sur ces onze dernières années.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Analyse de séquences d'événements avec TraMineR

Les méthodes de fouille de motifs séquentiels fréquents ont donné lieu, depuis le travail fondateur de Agrawal et Srikant (1995), à un grand nombre de travaux de recherche. La librairie TraMineR pour l’environnement statistique R cherche à rendre ces méthodes accessibles aux chercheurs de divers domaines désirant analyser ou visualiser des ensembles de séquences d’événements. Il est à noter que...

متن کامل

Extraction de motifs condensés dans un unique graphe orienté acyclique attribué

Résumé. Les graphes orientés acycliques attribués peuvent être utilisés dans beaucoup de domaines applicatif. Dans ce papier, nous étudions un nouveau domaine de motif pour permettre leur analyse : les chemins pondérés fréquents. Nous proposons en conséquence des contraintes primitives permettant d’évaluer leur pertinence (par exemple, les contraintes de fréquence et de compacité), et un algori...

متن کامل

Un regard lexico-scientométrique sur le défi EGC 2016

Résumé. Depuis 2001, les conférences EGC ont rassemblé 1 782 chercheurs autour de l’extraction et la gestion de connaissances. En 2016, l’association EGC réfléchit à son histoire et se projette en lançant un défi à sa communauté. Que peut-on révéler sur la communauté EGC via des approches développées en EGC ? Notre étude lexico-scientométrique apporte un éclairage sur les thématiques du congrès...

متن کامل

Vers une nouvelle approche d'extraction des motifs séquentiels non-dérivables

Résumé. L’extraction de motifs séquentiels est un défi important pour la communauté fouille de données. Même si les représentation condensées ont montré leur intérêt dans le domaine des itemsets, à l’heure actuelle peu de travaux considèrent ce type de représentation pour extraire des motifs. Cet article propose d’établir les premières bases formelles pour obtenir les bornes inférieures et supé...

متن کامل

Extraction de co-variations entre des propriétés de sommets et leur position topologique dans un graphe attribué

Résumé. L’analyse de grands réseaux est très étudiée en fouille de données. Toutefois, les approches existantes proposent une analyse soit à un niveau macroscopique (étude des propriétés globales comme la distribution des degrés), soit à un niveau microscopique (extraction de sous-graphes fréquents ou denses). Nous proposons une nouvelle méthode qui effectue une analyse intermédiaire permettant...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2016